65 research outputs found

    Contributions à l’Optimisation de Requêtes Multidimensionnelles

    Get PDF
    Analyser les données consiste à choisir un sous-ensemble des dimensions qui les décriventafin d'en extraire des informations utiles. Or, il est rare que l'on connaisse a priori les dimensions"intéressantes". L'analyse se transforme alors en une activité exploratoire où chaque passe traduit par une requête. Ainsi, il devient primordiale de proposer des solutions d'optimisationde requêtes qui ont une vision globale du processus plutôt que de chercher à optimiser chaque requêteindépendamment les unes des autres. Nous présentons nos contributions dans le cadre de cette approcheexploratoire en nous focalisant sur trois types de requêtes: (i) le calcul de bordures,(ii) les requêtes dites OLAP (On Line Analytical Processing) dans les cubes de données et (iii) les requêtesde préférence type skyline

    Skyline Multi-dimensionnelle sur des Données en Flux

    Get PDF
    International audienceDans le présent papier, nous proposons une structure d'indexation pour optimiser les requêtes skyline multi-dimensionnelles dans un contexte de données en flux. Quelques travaux ont traité le problème de la maintenance du skyline dans ce contexte, toutefois aucun n'a considéré le cas de skyline par rapport à un sous-ensemble de dimensions. Soient D = {D 1 ,. .. , D d } un ensemble de dimensions, T (id, D) un flux de données et ω la taille de la fenêtre de temps glissante, i.e., la durée de vie d'un enregistre-ment, notre structure répond à des requêtes de la forme sky(T , X , k) skyline de T vis à vis du sous-espace X choisi et k ≤ ω permet de restreindre la requête aux k flux les plus récents

    Maintenance Incrémentale du Skycube Négatif

    Get PDF
    International audienceSoient T (Id, D 1 ,. .. , D d) une table X ⊆ {D 1 ,. .. , D d } un sous-ensemble de dimensions, ou sous-espace, Sky(T , X) dénote le skyline de T vis à vis de X , i.e., l'ensemble des enregistrements de T qui ne sont pas dominés respectivement à X. Pour T , il y a 2 d − 1 requêtes skylines possibles en fonction du X choisi. Pour optimiser toutes ces requêtes, une manière de procéder consiste à les pré-calculer toutes et les stocker. Ce calcul est coûteux en termes de temps et d'espace mémoire. Un travail antérieur a proposé le sky-cube négatif (NSC) qui est une structure qui stocke pour chaque enregistrement et d'une manière compressée, l'ensemble des sous-espaces où il est dominé. L'efficacité de cette structures en termes de temps de calcul, d'espace de stockage et d'optimisation des requêtes a déjà été établie. Dans le présent article, nous montrons comment mettre à jour le NSC sans avoir à le recalculer entièrement suite à une insertion/suppression d'un (ensemble de) tuple(s)

    Dépendances fonctionnelles (extraction et exploitation)

    Get PDF
    Les dépendances fonctionnelles fournissent une information sémantique sur les données d une table en mettant en lumière les liens de corrélation qui les unient. Dans cette thèse, nous traitons du problème de l extraction de ces dépendances en proposant un contexte unifié permettant la découverte de n importe quel type de dépendances fonctionnelles (dépendances de clé, dépendances fonctionnelles conditionnelles, que la validité soit complète ou approximative). Notre algorithme, ParaCoDe, s exécute en parallèle sur les candidats, réduisant ainsi le temps global de calcul. De ce fait, il est très compétitif vis-à-vis des approches séquentielles connues à ce jour. Les dépendances satisfaites sur une table nous servent à résoudre le problème de la matérialisation partielle du cube de données. Nous présentons une caractérisation de la solution optimale dans laquelle le coût de chaque requête est borné par un seuil de performance fixé préalablement et dont la taille est minimale. Cette spécification de la solution donne un cadre unique pour décrire et donc comparer formellement les techniques de résumé de cubes de données.Functional dependancies provide a semantic information over data from a table to exhibit correlation links. In this thesis, we deal with the dependancy discovery problem by proposing a unified context to extract any type of functional dependencies (key dependencies, conditional functional dependencies, with an exact or an approximate validity). Our algorithm, ParaCoDe, runs in parallel on candidates there by reducing the global time of computations. Hence, it is very competitive comparated to sequential appoaches known today. Satisfied dependencies on a table are used to solve the problem of partial materiali-zation of data cube. We present a characterization of the optimal solution in which the cost of each query is bounded by a before hand fixed performance threshold and its size is minimal. This specification of the solution gives a unique framework to describe and formally compare summarization techniques of data cubes.BORDEAUX1-Bib.electronique (335229901) / SudocSudocFranceF

    Algorithme distribué pour l'extraction des fréquents maximaux

    Get PDF
    International audienceL'extraction des ensembles fréquents maximaux est un problème clef en fouille de données. Nous présentons dans cet article un algorithme distribué qui réalise cette tâche. Il s'agit du premier algorithme distribué avec des garanties de performance prouvées théoriquement

    On the interaction between multidimensional skylines and functional dependencies

    No full text
    International audienceIn this talk, we first motivate skyline queries usage for assessing data quality. We then show how functional dependencies impact multidimensional skylines and can we benefit from this information to optimize those queries

    Special issue in Journal of Decision Systems

    No full text
    International audienc

    De la donnée à la décision

    No full text
    National audienceDe la donnée à la décision : optimiser sa production viti-vinicole grâce aux Outils d’Aide à la DécisionCapteurs, modèles épidémiologiques, bases de données et « big data »… Jamais le viticulteur n’a eu à sa disposition autant d’informations. Dès lors, rassembler ces informations, les croiser et les analyser pour prendre la bonne décision devient un enjeu majeur pour la viticulture d’aujourd’hui et de demain
    • …
    corecore